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面向 网 络 大 数据 的 信息 检索 与 挖掘 
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摘要 :， 随 着 网 络 数据 的 爆炸 性 增长 ， 信 息 处 理 技术 面临 着 前 所 未 有 的 巨大 挑战 。 如 何 从 体 量 巨大 、 增 长 迅 
速 、 结 构 复杂 、 良 劳 不 齐 的 数据 中 发 据 潜 在 价值 成 为 了 关键 难题 。 面 向 网 络 大 数据 的 信息 检索 与 挖掘 技术 ， 
则 在 通过 对 大 数据 的 深度 分 析 与 建 模 ， 有 效 弥 合用 户 需 求 与 网 络 数据 之 间 的 信息 鸿沟 。 本 文 介绍 了 面向 网 
络 大 数据 的 深度 检索 与 挖掘 的 一 系列 关键 技术 , 包括 用 户 查 询 理解 与 处 理 、 文 档 建 模 与 理解 及 检索 模型 等 。 
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1 引言 
伴随 着 互联 网 技术 的 迅猛 发 展 和 普及 ,用户 规模 的 爆发 式 增长 ， 互 联网 已 经 步 入 了 “大 
位 至 少 


一 数据 ”时 代 。 网 络 大 数据 的 “大 ” 不 仅仅 体现 在 其 体 量 巨大 《〈 大 数据 的 起 始 计量 单 
是 Petabyte’. Exabyte*sk Zettabyte*), if H BOLE RES 常 迅猛 (通常 是 指数 级 的 速率 )， 
数据 类 型 多 样 (包括 了 文本 、 图 像 、 声 音 、 视 频 等 等 )， 数 据 质量 良 劳 不 齐 并 且 关 联 关 系 复 
杂 。 同 时 ， 网 络 大 数据 另外 一 个 突出 的 特点 就 是 其 价值 密度 低 ， 大 数据 中 包含 了 大 量 重 复 、 
噪声 和 垃圾 数据 , 存在 大 量 共 现 但 又 毫 无 意义 的 关联 模式 ,如果 缺乏 有 效 的 信息 处 理 手 段 提 
N 取 网 络 大 数据 中 潜在 的 价值 ， 那 么 网 络 大 数据 不 仅 不 能 成 为 一 个 价值 “宝藏 ”， 反 倒 会 成 为 
7 一 个 数据 的 “坟墓 ” 


信息 检索 和 挖掘 是 网 络 信息 处 理 的 关键 技术 。 网络 大 数据 对 于 信息 检索 和 挖掘 技术 而 言 

> 是 一 把 双 刃 剑 : 一 方面 ， 网 络 大 数据 提供 了 需要 检索 和 挖掘 技术 来 处 理 的 丰富 的 数据 源 ， 大 
SZ 规模 的 样本 资源 可 以 更 好 地 支持 文本 分 析 、 关 系 挖 据 、 用 户 语义 理解 、 图 像 处 理 等 等 关键 技 
© 术 的 发 展 ; 但 另 一 方面 , 网 络 大 数据 复杂 的 内 在 特征 对 传统 搜索 与 挖掘 技术 提出 了 严峻 的 挑 
= Ho 例如 网 络 大 数据 越 来 多 地 存在 于 电 商 、 问 答 等 私有 化 网 络 或 者 深 网 中 ,包括 了 结构 化 数 
据 、 半 结构 化 数据 和 非 结构 化 数据 ， 使 得 数据 的 获取 和 存储 更 加 困难 ; 数据 庞大 的 规模 、 复 

杂 的 关联 关系 ,使 得 传统 的 分 析 和 挖掘 技术 在 计算 的 时 空 复杂 度 上 激增 ; 男 外 迅猛 的 数据 增 

长 速率 ,巨大 的 数据 体 量 也 使 得 传统 的 全 量 计算 模式 (依赖 于 全 体 样本 的 计算 模式 ) 不 再 适 

用 。 为 了 能 够 有 效 地 克服 这 些 难题 ， 充 分 挖 据 和 利用 网 络 大 数据 中 的 信息 价值 , 我 们 需要 研 
究 面 向 网 络 大 数据 的 深度 检索 与 挖掘 技术 。 


面向 网 络 大 数据 的 深度 检索 与 挖掘 技术 , 则 在 通过 对 大 数据 的 深层 分 析 与 建 模 , 有 效 弥 
合用 户 需 求 与 网 络 数 据 之 间 的 鸿沟 ， Ve i le E a A 
数据 的 深度 检索 与 挖掘 技术 主要 需要 解决 好 三 个 方面 的 问题 , 即 在 用 户 空 间 对 用 户 查 询 的 深 
AEE ARI, 在 数据 空间 对 文档 等 数据 的 深度 建 模 与 再 解 ， 以 及 对 用 户 查询 和 网 络 数据 的 


高 效 智能 匹配 。 


首先 , 用 户 查 询 是 用 户 对 自己 信息 需求 的 主要 表达 手段 。 要 能 够 在 网 络 大 数据 环境 下 实 
现 有 效 的 信息 定位 , 需要 能 够 对 用 户 查 询 进行 更 深层 次 的 理解 与 处 理 , 以 便 更 加 准确 地 捕获 


1 105 千 万 亿 
?10 百 亿 亿 
3 102 十 万 亿 亿 


35 


面向 网 络 大 数据 的 信息 检索 与 挖掘 


户 的 意图 ， 从 语义 层面 更 好 地 实现 信息 的 匹配 。 搜索 引擎 十 多 年 的 发 展 积累 了 大 量 的 用 户 
查询 日 志 , 而 且 这 样 的 日 志 数 据 还 在 持续 的 增长 (例如 据 统 计 百 度 每 天 处 理 的 搜索 查询 量 超 
过 了 50 亿 次 )。 海量 的 用 户 查 询 日 志 数 据 提供 了 异 构 、 丰 富 的 用 户 行为 数据 ， 为 实现 查询 的 
深层 理解 与 处 理 提供 了 坚实 基础 。 解决 如 何 基 于 海量 用 户 查 询 日 志 数 据 , 在 更 深层 次 解析 查 
WAW, 度量 查询 的 相关 关系 , 分析 查 询 效 用 等 一 系列 问题 , 成 为 了 理解 用 户 的 查询 意图 及 
对 其 建 模 的 关键 。 


其 次 ， 网 络 数据 对 象 ( 如 文档 、 图 片 等 ) 是 信息 检索 和 挖 所 的 对 象 ， 对 其 合理 的 建 模 和 
DAT, 提取 其 中 的 关键 语义 、 关 键 模式 ,才能 有 效 地 发 据 数 据 内 含 的 规律 和 潜在 价值 ， 实 现 
更 准确 的 信息 获取 。 特别 是 在 大 规模 网 络 文本 数据 环境 , 提取 其 中 的 语义 话题 是 数据 挖掘 和 
检索 的 一 项 关键 技术 。 然 而 , 传统 的 话题 建 模 的 基本 假设 (所 有 文档 都 共享 同样 的 话题 维度 ) 
不 再 适用 于 网 络 大 数据 。 实 际 网 络 大 数据 具有 特征 稀 踊 、 语 义 稀 芷 等 特点 ， 大 规模 文本 数据 
集 潜在 包含 了 高 维 话题 但 同时 单个 文本 却 只 有 极 少 话题 。 这 些 问 题 都 对 网 络 大 数据 的 话题 建 
模 技术 提出 了 新 的 挑战 和 需求 。 


最 后 , 检索 模型 则 在 解决 用 户 需 求 空 间 和 网 络 数据 空间 的 智能 匹配 。 当 前 排序 学 习 技 术 
> 由 于 其 坚实 的 理论 基础 、 灵 活 的 建 模 方式 和 优异 的 排序 性 能 , 成 为 了 学 术 界 和 工业 界 主流 的 
检索 模型 。 然 而 ,传统 的 排序 学 习 技术 依 束 于 对 全 集 样本 的 多 级 标注 和 学 习 ， 标注 代价 高 且 
不 能 很 好 地 体现 检索 中 关注 位 置 的 特点 。 如 何 提高 排序 学 习 技 术 在 大 数据 下 的 性 能 , 构建 适 
用 于 网 络 大 数据 的 排序 学 习 标注 、 建 模 和 评价 体系 ， 成 为 了 一 个 非常 实际 的 课题 。 


本 文 将 从 用 户 查 询 意 图 的 理解 ,网 络 文档 稀 琉 话题 建 模 ,以 及 大 数据 下 的 排序 学 习 三 个 
方面 介绍 我 们 在 网 络 大 数据 信息 检索 和 挖掘 技术 方面 近年 来 取得 的 重要 研究 成 果 。 其 中 , 第 
二 节 主 要 就 从 基于 大 规模 用 户 查 询 日 志 的 查询 结构 分 析 、 查 询 相 关 关 系 度量 、 查 询 效 用 分 析 
等 方面 介绍 查询 理解 方面 的 相关 成 果 ; 第 三 节 从 语义 稀 琉 和 特征 稀 玻 两 个 方面 介绍 大 数据 稀 
玻 话 题 建 模 方法 ; 第 四 节 介绍 大 数据 下 的 高 性 能 Top-k 排序 学 习 技术 ; 最 后 ， 在 第 五 节 进行 
总 结 


7) SH o 


2 ”基于 大 规模 用 户 查询 日 志 的 查询 理解 


用 户 查 询 理解 则 在 通过 对 用 户 查 询 的 建 模 、 分 析 和 人 处理， 理解 用 户 查 询 的 意图 ,提高 信 
县 检索 的 质量 和 用 户 体验 。 大 规模 用 户 查 询 日 志 为 深层 次 理解 用 户 查 询 提 供 了 基础 且 宝 贵 的 
数据 。 本 节 基 于 用 户 查 询 日 志 从 查询 串 本 身 、 查 询 之 间 以 及 查询 会 话 序列 三 个 层次 展开 研究 ， 
提出 了 查询 结构 解析 站、 查询 相似 关系 度量 站、 基于 效用 的 查询 推荐 中 等 模型 与 方法 ， 逐 层 
深入 地 理解 用 户 查 询 的 意图 并 进行 处 理 。 


2.1 基于 命名 实体 识别 的 用 户 查 询 结构 解析 


为 了 能 够 理解 用 户 查 询 的 语义 和 意图 , 我 们 对 查询 结构 进行 了 分 析 和 建 模 。 通 过 研究 发 
现 ， 大 约 有 71% 的 用 户 查 询 包 含 命名 实体 ， 而 这 些 命 名 实体 通常 代表 了 用 户 检索 的 核心 语 
义 。 识别 这 些 查 询 中 的 命名 实体 将 可 以 帮助 我 们 更 好 地 理解 用 户 检 索 的 意图 ， 从 而 更 好 地 辅 
助 检索 。 例 如 ， 在 相关 检索 中 ,我 们 可 以 通过 对 查询 中 的 实体 和 其 他 部 分 分 别 赋予 不 同 的 权 
重 来 提高 排序 的 质量 ; 在 查询 推荐 时 , 查询 中 命名 实体 的 类 别 信 息 则 可 以 帮助 我 们 产生 更 加 
相关 和 多 样 的 查询 建议 。 例 如 ， 对 于 “harry potter walkthrough” 这 个 查询 ， 我 们 可 以 通过 分 
析 其 中 的 实体 和 上 下 文 信息 , 发 现 该 查询 属于 对 游戏 类 别 的 查询 , 同时 我 们 可 以 利用 游戏 类 


‘qu 


“在 某 个 数据 集中 找 出 按 某 种 方式 排序 的 前 K 名 成 员 的 算法 
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别 的 其 它 查 询 上 下 文 来 产生 推荐 ， 如 “harry potter cheats”. EAW, 我们 首次 提出 了 查询 
中 命名 实体 识别 这 一 研究 问题 。 


在 这 个 研究 工作 中 ,我 们 提出 了 利用 大 规模 用 户 查询 日 志和 一 个 新 颖 的 概率 框架 来 进行 
查询 结构 分 析 ， 识别 用 户 查 询 中 的 命名 实体 及 其 上 下 文 模板 。 不 失 一 般 性 ,包含 单个 命名 实 
体 的 查询 可 以 表示 为 一 个 三 元 组 (e, t c) EP e 代表 命名 实体 , t 代表 查询 上 下 文 , ec 代 
K e 的 类 别 。 查 询 中 命名 实体 识别 的 问题 就 转化 为 给 定 查 询 q， 我 们 需要 为 其 寻找 具有 最 
大 联合 概率 Pr(e, t, c) 的 最 优 三 元 组 (e,t,c)， 即 


T 


(e,t,c)*= argmax , ,. Pr(q,e,t,c) 
=argmax,,,.. Pr(q|e,t,c) Pr (e,t,c) 


Pr(e,t,c) 


E aTEMAX e te)eG(g) 


我 们 发 现 , 这 个 联合 概率 可 以 进一步 分 解 并 利用 大 规模 用 户 查 询 日 志和 一 个 话题 模型 来 
进行 估计 。 在 这 里 ,使 用 话题 模型 的 一 个 特殊 挑战 在 于 查询 的 语义 类 别 ( 对 应 话题 模型 的 隐 
藏 话题 ) 是 预先 定义 的 , 而 传统 的 无 监督 话题 模型 学 习 得 到 的 隐藏 话题 无 法 准确 地 和 预定 义 
的 查询 语义 类 别 进行 对 齐 。 因 此 , 我 们 提出 了 一 个 基于 潜在 狄 利克 里 分 布 的 弱 指 导 学 习 的 话 
题 模型 ， 称 为 WS-LDA (Weakly Supervised Latent Dirichlet Allocation)， 并 把 它 应 用 于 我 们 
的 实体 识别 问题 中 。WS-LDA 不 同 于 使 用 无 指导 学 习 的 传统 LDA 四 ， 其 目标 函数 如 下 式 所 
ZN: 


0 (D,Y |2)= 20 wy, |0) 


= Slog) P(O, |© E Px, |00) POP. Zn 8)I48,))* LAD Vaza 


其 中 前 半 部 分 是 传统 LDA 模型 下 的 似 然 函 数 ， 后 半 部 分 是 弱 约 束 条 件 以 实现 话题 对 
齐 。WS-LDA 可 以 利用 人 工 标注 的 弱 指导 信息 来 指导 话题 模型 学 习 。 


我 们 在 随机 采样 的 1200 万 条 用 户 查 询 的 数据 集 上 进行 实验 ， 结 果 表 明 ， 我 们 提出 的 方 
法 在 前 3 个 识别 结果 上 可 以 达到 97.5% 的 准确 率 。 基 于 该 方法 的 识别 结果 ， 我 们 可 以 提高 
信息 检索 的 排序 性 能 ， 排 序 性 能 相 比 于 原始 相关 排序 结果 在 NDCG@3° 指 标 上 可 以 提高 
4.4%。 


2.2 基于 意图 感知 的 用 户 查询 相似 度 度量 


对 高 维 稀 玻 的 用 户 查 询 进行 相似 度 度量 是 用 户 查 询 意 图 理解 的 一 个 核心 问题 , 它 可 以 广 
泛 地 用 于 查询 分 类 聚 类 、 查询 扩展 、 查询 推荐 等 相关 应 用 。 然而 由 于 用 户 查询 往往 非常 简短 ， 
而 且 语 义 模糊 、 意 图 多 样 ， 对 于 查询 相似 度 的 度量 并 非 是 一 件 简单 的 事情 。 例如， 给 定 用 户 
查询 “Apple”， 假 如 用 户 的 查询 意图 是 查找 水 果 ， 那 么 它 就 和 “Apple tree” 这 样 的 查询 相 
似 ; 而 假如 用 户 的 查询 意图 是 查找 苹果 公司 的 产品 ， 则 它 将 和 “Apple store” 这 样 的 查询 相 
似 。 由 于 查询 意图 不 同 ， 这 样 的 相似 度 是 不 能 够 相互 比较 的 。 也 就 是 说 ,我 们 并 不 能 够 得 出 
如 “Apple tree” 比 “Apple store” 更 加 相似 于 “Apple” 或 者 反之 “Apple store” 比 “Apple 
tree” 更 加 相似 于 “Apple” 的 结论 ; 更 不 能 得 出 由 于 “Apple tree” 和 “Apple” 相 似 ,“Apple 
store” 也 和 “Apple” 相 似 ， 所 以 “Apple tree” 和 “Apple store” 相 似 这 样 的 结论 。 然 而 传 


> Normalized Discounted Cumulative Gain， 归 一 化 折扣 累积 增益 , 一 种 信息 检索 研究 领域 广泛 应 用 的 评估 测 
度 
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统 的 查询 相似 度 的 度量 基于 查询 单一 的 特征 表达 , 采用 单一 的 度量 尺度 进行 计算 , 它们 或 者 
是 基于 对 的 方法 (pair-wise method)， 或 者 是 基于 图 的 方法 (graph-based method)， 这 些 方 
法 就 会 产生 上 述 例子 中 所 述 的 错误 或 者 不 恰当 的 相似 关系 度量 结果 。 


在 本 文中 , 我 们 首次 提出 了 意图 感知 的 查询 相似 度 度量 这 个 概念 , 即 查 询 相似 度 需 要 定 
义 在 查询 意图 之 上 , 只 有 这 样 我 们 才能 够 得 到 更 加 准确 的 相似 度 度量 , 避免 产生 传统 度量 准 
则 的 种 种 问题 。 在 查询 意图 感知 的 查询 相似 度 度量 方法 中 , 我 们 利用 查询 的 搜索 结果 以 及 大 
规模 用 户 查 询 日 志 中 的 点 击 日 志 数 据 , 来 学 习 查询 的 潜在 意图 。 我们 使 用 了 一 个 正则 化 话题 
混合 模型 来 为 用 户 查 询 的 潜在 意图 建 模 ,该 模型 可 以 充分 利用 上 述 两 类 数据 来 进行 意图 的 学 
习 与 推断 ， 它 目标 是 最 大 化 一 个 正则 化 的 似 然 函 数 ， 其 中 入 是 一 个 正则 化 因子 : 


L =L -AR 
=i 


M 


> nlg,» w, )log(P(q,) PO, |s, 


J 


(laD) -4 È, CCPC; la) - Ps, fa, 


在 我 们 学 得 的 模型 基础 之 上 ， 可 以 对 每 个 查询 抽取 其 基于 查询 意图 的 不 同 的 表达 形式 ， 
一 即 意图 感知 的 表达 。 基 于 意图 感知 的 表达 ， 我 们 可 以 采用 传统 的 配对 方法 局 以 及 基于 图 的 方 
法 外 来 进行 意图 感知 的 查询 相似 度 计算 。 我 们 提出 的 意图 感知 的 查询 相似 度 度量 ， 不 仅 可 以 
更 加 精确 地 计算 查询 之 间 的 相似 度 , 也 可 以 很 好 地 适应 如 结构 化 的 查询 推荐 、 检索 结果 的 多 
样 化 等 实际 应 用 。 


© 我 们 在 大 规模 用 户 查询 日 志 数 据 集 上 进行 实验 , 验证 我 们 提出 的 查询 意图 感知 的 相似 度 
的 有 效 性 。 我 们 通过 人 工 标注 获得 了 200 个 具有 歧义 的 查询 以 及 其 对 应 于 不 同意 图 下 的 代表 
N 性 相似 查询 ， 通 过 大 规模 点 击 日 志 进行 意图 学 习 和 度量 。 一 个 好 的 查询 相似 度 度量 ， 可 以 让 
= 相同 意图 的 查询 相似 度 尽 可 能 大 ， 让 不 同意 图 的 查询 相似 度 尽 可 能 小 。 因 此 ， 我 们 利用 类 间 
= 相似 度 和 类 内 相似 度 的 期 望 比例 (H Score) 作 为 评价 指标 。 实 验 结果 表明 ， 我 们 提出 的 方法 ， 
= 在 相似 度 度量 评价 指标 上 可 以 显著 地 优 于 传统 的 配对 方法 和 基于 图 的 方法 〈 见 表 1)。 
EL 不同 相 似 度 度量 方法 下 的 类 间 - 类 内 相似 度 比例 

方法 类 类 内 -类 间 相 似 度 
= 比例 Hs(Sim) 
= 单词 余弦 相似 度 ! 0.47+0.06 > Embed-Click*** 


显著 性 差异 


意图 感知 余弦 相似 度 ? 0.08+0.03 > Cos-Word ***> Embed-Click*** 

ARAE? 0.54+0.02 

意图 感知 嵌入 法 0.09+0.03 > Cos-Word ***> Embed-Click*** 
'Cos-Word; 7” Cos-Intent; *Embed-Click; “Embed-Intent 


*** 表 示 显 著 性 水 平 为 0.01; 
2.3 基于 效用 分 析 的 用 户 查询 推荐 


为 了 有 效 地 帮助 人 们 表达 查询 意图 , 查询 推荐 成 为 了 搜索 引擎 核心 工具 。 然而 现 有 的 查 
询 推荐 方法 主要 在 查询 词 这 个 层面 上 向 用 户 推荐 相关 性 查询 或 差异 性 查询 !”"， 并 没有 在 查 
询 结果 层面 上 来 考虑 推荐 的 真正 目的 , 即 通过 推荐 帮助 用 户 找到 期 望 的 信息 。 为 解决 这 一 问 
题 ， 我 们 在 本 文 的 工作 中 首次 提出 了 向 用 户 推 荐 高 效用 性 的 〈Utility) 查询 ， 使 查询 能 够 更 
好 地 满足 用 户 的 信息 需求 。 查询 的 效用 性 定义 为 : 用 户 能 够 从 该 查询 的 检索 结果 中 获得 的 有 
用 信息 量 。 值 得 注意 的 是 ， 尽管 在 一 些 查 询 推荐 的 研究 工作 中 提 到 了 效用 性 的 概念 ,但 这 些 
工作 与 我 们 的 研究 工作 有 本 质 的 区 别 。 
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效用 性 查询 推荐 研究 最 大 的 挑战 在 于 : 如 何 挖掘 各 个 查询 的 效用 。 我 们 通过 分 析 发 现 ， 

用 户 的 搜索 行为 , 尤其 是 用 户 的 查询 重 构 行 为 和 查询 点 击 行为 , 包含 了 大 量 有 价值 的 查询 效 

用 信息 。 进 一 步 分 析 发 现 ， 查 询 的 效用 包含 两 个 部 分 ， 即 感知 效用 (Perceived Utility) 和 后 

Js SL] (Posterior Utility): C) 感知 效用 是 指 用 户 是 否 对 该 查询 的 搜索 结果 感 兴趣 ， 只 有 感 

兴趣 用 户 才 会 进一步 点 击 这 些 结果 并 查看 其 内 容 ;(2) 后 验 效用 是 指 所 点 击 的 结果 是 否 能 够 
满足 用 户 的 信息 需求 。 查 询 的 效用 最 终 定义 为 这 两 个 组 成 效用 的 乘积 。 


我 们 提出 了 一 个 基于 动态 贝 叶 斯 网 络 的 查询 效用 模型 (Query Utility Model, QUM) 来 进 
行 查询 效用 的 学 习 〈 图 1)。 其 中 ，R; 表示 在 位 置 i 是 否 存在 查询 重 构 ，C; 表示 用 户 是 否 点 
击 第 i 个 位 置 重 构 查询 的 搜索 结果 ，4; 表 示 第 i 个 位 置 重 构 查询 的 搜索 结果 是 否 吸 引用 户 ， 
;表示 在 位 置 i， 用 户 的 信息 需求 是 否 得 到 满足 。 在 我 们 的 模型 中 ， 与 查询 效用 相关 的 参数 
有 两 个 ， 分 别 是 感知 效用 a 和 后 验 效 用 6， 这 两 个 量 可 以 通过 极 大 似 然 估 计 获 得 。 


实验 在 公开 的 UFindit 数据 集 上 进行 , 基 

于 两 个 自动 评测 的 指标 : 查询 相关 率 (Query 

Relevant Ratio, QRR)) 和 相关 文档 均值 

> (Mean Relevant Document, MRD)) 进行 评 
一 价 。 为 了 验证 我 们 提出 的 查询 效用 性 模型 方 
Q? 法 的 效果 ， 我 们 将 其 与 当前 流行 的 基于 会 话 
和 查询 流程 图 的 推荐 方法 相 比 。 评 测 结 果 显 
© 示 ， 我 们 提出 的 查询 效用 性 模型 方法 的 推荐 
结果 在 查询 相关 率 和 意义 相关 文档 两 个 评测 
N 指标 下 均 有 最 好 的 结果 。 图 1， 基 于 动态 贝 叶 斯 网 络 
T 的 查询 效用 性 模型 


3 ”大 数据 稀疏 话题 建 模 


针对 网 络 大 数据 的 分 类 、 聚 类 、 检 索 等 基本 的 数据 处 理 任 务 ， 都 要 求 计算 机 能 够 自动 挖 
据 出 诅 含 在 数据 中 的 语义 信息 。 话 题 模型 能 够 从 繁杂 的 数据 中 提取 与 语义 相关 的 低 维 的 表 
= 达 , 从 而 被 广泛 应 用 于 数据 挖掘 与 处 理 的 领域 。 传 统 的 话题 模型 认为 文档 是 由 一 组 不 同 的 话 
© 题 产 生 ， 同 一 文档 集 共 享 相同 的 话题 。 然 而 在 实际 中 ， 人 们 发 现 网 络 数据 往往 包含 非常 多 的 
话题 ， 而 具体 到 某 一 篇 文 要 ， 却 仅仅 覆盖 了 少量 的 一 些 话题 。 此 外 ， 很 多 社交 网 络 、 即 时 通 
讯 中 产生 的 大 量 数据 中 有 一 个 共同 的 特点 ， 即 单个 文本 都 非常 的 简短 。 这 些 问 题 导 致 传统 的 
话题 模型 在 计算 性 能 和 计算 效率 上 都 面临 极 大 的 挑 成 。 本 节 中 ， 我 们 分 别 从 语义 稀 琉 、 特 
征 稀 巩 吓 ] 角 度 展开 研究 ， 通 过 新 颖 的 稀疏 话题 模型 来 解决 大 规模 文档 话题 建 模 的 挑战 。 


3.1 E P E SC ho aC AS NE At Ta we 


E NR EH LEK UR SOR SE US FE EK EY d, 但 实际 单个 文档 却 往往 覆盖 极 少 
EDT LULA oy HP TRS Ta Rs FD BE EV] aL Ee E aL A FFE 
IE ER, RE FAAR EEL AR DA BS EE, (ES 
想 。 一 方面 ， 概 率 话 题 模型 (诸如 PLSAUI . LDA“), WREDA, RS 
文档 的 话题 表达 可 以 被 看 成 各 个 话题 的 组 成 比例 ， 便 于 计算 各 篇 文档 之 间 相 互 关 系 。 但 是 ， 
传统 的 稀疏 性 方法 (比如 LASSO 9 却 由 于 受到 概率 一 致 性 约束 的 影响 ， 而 难以 直接 作用 在 


u 


po p 


6 Least absolute shrinkage and selection operator, 最 小 绝对 值 压缩 和 选取 ,Lasso 的 基本 思想 是 在 回归 系数 的 绝 
对 值 之 和 小 于 一 个 常数 的 约束 条 件 下 ， 使 残 差 平 方 和 最 小 化 
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文档 的 话题 成 分 上 。 


另 一 方面 ， 非 概率 计 


6 题 模型 (诸如 Isil 


面向 网 络 大 数据 的 信息 检索 与 挖掘 


不 再 要 求 文档 表达 共有 


损害 应 用 效果 。 


基于 上 述 的 认识 ， 
ME NO 


一 致 的 
的 个 数 。 但 这 类 方法 破坏 了 话题 模型 的 解释 怕 


FRAT HEH 


编码 的 思想 


4D Cn» 


对 文档 中 单词 9 
们 可 以 方便 地 从 单词 的 读 


6 题 编 


上 现 的 次 数 进行 建 模 。 通 过 泊 


group LASSO (成 组 LASSO) 的 方式 ， 将 稀 玻 性 约束 直接 施加 于 各 个 单词 的 编码 之 上 ，:# 
将 每 篇 文档 中 各 个 单词 的 编码 的 黎 玻 性 对 齐 ， 从 而 达到 ] 


给 定 一 个 文档 集合 D, 


Hg 
ZN 


N fet HAZ), sane O“ 


次 数 建 模 ， 可 以 将 单词 的 编码 和 单词 的 出 现 次 数 联系 起 来 ,具体 的 文档 产生 过 程 如 


是 文档 d 中 单词 


nmftl] 、 


sparse coding“), 


REE, FREAR PY A Hy ASE as HSCS ARES IA O70 28 
EE， 往往 会 造成 度量 数据 之 间 关 系 的 偏差 ， 从 而 


了 一 种 结合 概率 话题 模型 的 可 解释 性 和 非 概率 话题 模型 的 稀 
成 组 稀疏 话题 编码 (Group Sparse Topic Coding). he Hi hii 
松 分 布 和 二 项 分 布 之 间 的 关系 ， 
码 推导 出 文本 中 各 个 话题 所 占 的 比例 成 分 。 


我 
另外 ， 我 们 通过 


aon 


制 文档 话题 


FE M 篇 文档 ，4d={wi,w2...., Wats Be 


1. For ke {1, 2..., 本 :对 每 个 话题 


对 


个 词 编码 矢量 ske 


~M-Laplace() 采 样 


2. For nel: 对 每 个 观察 到 的 记 
For ke{1, 2..., 必 :对 每 个 话题 
对 一 个 隐 含 的 词 频 计数 ww~Poissan (Sng, Bin) 采样 


3. 


分 布 可 以 定义 如 下 : 


M- Laplace(s 


用 泊 松 分 布 产生 单 词 次 数 的 形式 如 下 


Poisson(w,, 


得 到 词 频 计数 w, = Dw, 


中 多 元 拉 普 拉 斯 (Multi-Laplacian) 


© 


0,4”) < AN / 2exp(—A|s|],) 


图 2. 


所 示 : 
相应 的 概率 图 模型 如 图 
题 


minl (©.8}-In P(©,2|D) 


M lld| M K 
=min> >! (s1,,B)+ > A 
0,8 d=l n=l d=l n=l 


AREAN: San 20,Yd, nET, 


N 
È Pin =1 Vk 
n=l 
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Sq „n 


的 编码 。 通 过 使 用 泊 松 分 布 对 文档 ! 


稀 琉 性 的 目的 。 
4v， 天 是 话题 个 数 ， 
单词 出 现 


einen 


+ 
2 


Ox 


下 所 示 : 


QQ 


Si Bin) © (Sax Bind” @XP(-S nx Ban) 


C 


6 题 编码 的 概率 图 模型 


2 所 示 。 基于 如 上 的 文档 产生 过 程 , 我 们 可 以 得 到 如 下 的 优化 问 


[td] { K K M K 
2 Sant Bin Wan In(> sup ) A È Asun | +C 
n=l (k= = =1 k= 2 
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可 以 看 出 在 目标 函数 A(@,p) 中 ， 多 元 拉 普 拉 斯 分 布 转化 为 group LASSO， 从 而 起 到 对 每 

一 篇 文档 中 单词 编码 稀 玖 性 的 一 致 控制 。 针 对 该 目标 函数 ， 我们 采用 坐标 下 降 

(coordinate-descent) 算法 迭代 优化 编码 san 以 及 话题 分 布 h。 基 于 学 习 得 到 的 编码 san 以 及 
话题 分 布 hf， 我 们 可 以 恢复 出 文档 中 话题 所 占 的 成 分 Ok 


我 们 通过 在 20newsgroup 上 的 实验 来 验证 所 提 方 法 的 有 效 性 。 从 实验 结果 我 们 发 现 , 成 
组 稀 玻 话题 模型 有 着 更 强 的 稀 玻 控制 能 力 , 在 文本 分 类 精度 上 随 着 话题 数目 的 增多 , 分 类 效 
果 明 显 好 于 传统 的 话题 模型 LDA 和 PLSA 以 及 最 新 的 有 监督 话题 模型 STECH, 通过 对 比 不 
同 模 型 的 训练 时 间 ， 可 以 看 出 在 计算 速度 上 ， 我 们 的 模型 也 显著 优 于 传统 概率 话题 模型 。 


3.2 面向 特征 稀 疏 的 双 词 话题 模型 


短文 本 是 互联 网 上 一 种 常见 的 信息 载体 ， 如 网 页 标题 、 文 本 广告 、 图 像 描 述 等 。 近年 
来 ， 随 着 社交 网 络 的 信息 日 益 增 多 ， 如 微 博 、 状 态 信 息 、 问 答 系 统 中 的 问题 等 短文 本 更 是 逐 
渐 成 为 互联 网 上 信息 传播 的 主流 媒介 之 一 。 传 统 的 话题 模型 如 PLSA 和 LDA 面 对 特 征 稀疏 

的 短文 本 数据 会 遇 到 以 下 问题 : 
> @ 短文 本 中 大 部 分 词 都 只 出 现 一 次 , 因此 词 频 信息 对 词 相 关 性 和 重要 性 判断 不 能 产生 区 分 
pam 度 
CY o ”由 于 短文 本 文档 过 短 ， 上 下 文 信息 的 缺乏 会 给 一 些 二 义 性 的 词 的 话题 判别 带 来 困难 


= 


为 了 解决 这 些 问 题 , 我 们 提出 了 一 种 新 的 双 词 概率 话题 模型 (Biterm Topic Model, BTM) 


EA 来 解决 特征 稀 玻 的 文本 话题 建 模 难 题 。 双 词 概率 话题 模型 的 出 发 点 是 直接 从 词 共 现 关系 去 学 
© 习 话 题 。 这 样 做 的 好 处 是 :1). 词 共 现 关系 包含 了 上 下 文 信息 ， 比 单个 词 更 容易 判断 其 中 词 
I~ 的 话题 属性 ;(2) . 词 共 现 关系 与 文档 长 短 无 关 。 虽 然 单个 文档 内 部 的 词 共 现 关 系 比较 稀 玻 ， 
S 但 只 要 数据 足够 多 ， 全 局 的 词 共 现 关系 仍然 很 充分 。 

oe 给 定 一 个 短文 本 语 料 , 我 们 首先 从 中 抽取 所 有 共 现 词 对 。 在 统计 自然 语言 处 理 当中 ， 
:一 个 基本 假设 就 是 两 个 词 共 现 的 次 数 越 多 ， 它 们 的 语义 越 相 关 。 为 了 描述 这 种 共 现 关系 ， 我 


~ 们 定义 双 词 Chiterm) 为 一 个 无 序 的 词 共 现 对 。 在 短文 本 当中 ， 由 于 文档 长 度 短 ， 文 档 中 的 
主题 比较 集中 ， 所 以 我 们 抽取 其 中 任意 两 个 不 同 的 词组 合 构成 一 个 双 词 。 


双 词 概率 话题 模型 为 文档 集合 当中 每 个 双 记 Q 
的 产生 过 程 建 模 。 它 假设 整个 文档 集合 是 一 个 话 
题 的 混合 分 布 ， 其 中 每 个 双 词 都 来 自 于 同一 个 话 
题 ， 并 且 每 个 双 词 中 的 两 个 词 关于 该 话题 条 件 独 


E 
立 。 双 词 概率 话题 模型 的 产生 式 过 程 描述 如 下 (图 ORG Y% 


模型 如 图 3 所 示 ): 


1. 针对 每 个 话题 
其 q ERTAN 1 oZ p 2 
IE NE Ne FAB. Biter i BE RA 
2, FAAEE A Dir(o) 采 样 得 到 整个 数据 集 的 话题 分 布 6 
3. 针对 双 词 集合 B 中 的 每 个 双 词 
a) ”基于 多 项 式 分 布 Multi(0) 对 一 个 话题 z 采样 
b) 基于 多 项 式 分 布 Mulit(p) 分 别 对 两 个 单词 ww 采样 


民 据 以 上 产生 式 过 程 ， 一 个 双 词 b=(wi, wj) 的 联合 概率 分 布 可 以 写成 : 
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P(b) =} P(z)POw; 


整个 语 料 的 似 然 函数 : 


P(B) = UDA 
ijz 


双 词 概率 话题 模型 可 以 通过 吉 布 斯 (Gibbs) 采样 算法 求解 其 参数 P(z) 和 P(wlz)。 得 到 


了 这 两 个 参数 的 值 后 ， 我 们 可 以 


P(z|d) = > P(z|b)P(5|d) 


我 们 通过 实验 验证 了 我 们 提出 的 双 词 概率 话题 模型 
开 的 TREC 2011 Microblog tracks 数据 ， 包 含 了 从 twitter C 
法 包括 LDA，LDA-UD9( 即 将 每 个 月 
(Mixture of unigrams， 它 假设 每 个 文档 只 有 一 个 读 


Mix!" 


FAIH 


面向 网 络 大 数据 的 信息 检索 与 挖掘 


z)P(wj|z) =} 0 pp 


日 户 所 有 的 微 博 汇总 成 一 个 文档 后 的 LDA 


目 以 下 方式 估计 文档 的 话题 成 分 Pld): 


在 短文 本 语 料 上 的 效果 。 实 验 基 于 公 


ERD 采样 两 周 的 微 博 。 对 比方 


6 题 )。 


), 
为 了 评价 学 习 到 的 主题 质量 ， 


我 们 评价 了 话题 的 一 致 性 得 分 〈coherence score) C 如 下 式 所 示 : 


m 


C(z,V)= > Slog 


Dv, vi) +1 


t=2 [=] 


\ 
4 


从 表 2 可 以 看 出 ， 双 词 概率 话 
模型 (BTM) 的 一 致 性 得 分 显著 
* 于 其 他 方法 ， 说 明 双 词 概率 话题 
型 学 习 到 的 话题 更 紧凑 ， 可 读 性 


SSE 


at 


N-AM, A SVE CRS el 


表示 的 效果 ， 我 们 从 twitter 数据 中 抽取 了 50 个 含有 明确 


包含 这 些 哈 希 标签 的 微 博 抽 取出 来 ， 
计算 了 平均 类 内 距离 和 平均 类 间距 
离 的 比值 CH Score). H 值 越 低 ， 
说 明文 档 表 达 得 越 好 。 表 3 给 出 了 
各 方法 的 是 值 ， 可 以 看 出 我 们 的 方 
法 双 词 概率 话题 模型 显著 优 于 其 他 
方法 。( 其 中 *，**，**#* 分 别 对 应 显 
著 性 检验 t-test 中 的 显著 性 水 平 
p-value 为 0.1,0.01 和 0.001) 


Dv) 


中 ,表示 单词 ，D(O) 表 示 词 v 出 现 过 的 文档 数 ，D(v,v’) 表 示 词 vy 和 词 y' 共 现 的 文档 数目 。 


#2. Twitter 数据 上 的 一 致 性 得 分 结果 
方法 5 10 20 
LDA -55.0+0.4 -236.442.0 -1015.7+5.9 
LDA-U -54.2+0.8  -234.8+1.1  -10009.4+4.4 
Mix -53.8+0.1 -233.0+1.4 -1007.6+6.7 
BTM -52.4+0.1 -277.8+40.3 -990.243.8 


意义 的 哈 希 标签 (hashtag)， 再 将 


组 成 测试 集 。 通 过 把 每 个 哈 希 标 签 看 成 是 一 个 类 ， 我 们 
K3. 不 同 话题 模型 的 瑞 值 

方法 H Score 显著 差 

LDA 0.576 +0.007 

LDA-U 0.564+0.011 >LDA* 

Mix 0.503 +0.008 >LDA-U“"*>LDA*** 

BTM 0.474 +0.005 >Mix* * *+LDA-U“"> LDA*** 


4 大 数据 下 的 排序 学 习 技 术 


为 了 解决 用 户 需 求 空间 和 网 络 数据 
究 。 其 中 排序 学 习 技 术 通 过 机 器 学 习 的 方法 进行 
传统 的 排序 学 习 技术 依赖 于 对 全 集 样本 的 多 级 标注 


on 
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空间 的 智能 匹配 问题 , 多 种 类 型 的 排序 模型 得 到 广泛 


排序 , 是 当前 一 类 主流 的 排序 模型 。 然 而 ， 


E 和 学 习 , 标注 代价 高 且 


不 能 很 好 地 体现 检 
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索 中 关注 位 置 的 特点 。 如 何 提高 排序 学 习 技 术 在 大 数据 下 的 性 能 成 为 了 一 个 非常 实际 的 课 
题 。 FEAT, 我 们 介绍 Top-k 排序 学 习 框架 9, 通过 建立 关注 于 Top-k 位 置 数 据 样本 的 标注 、 
排序 建 模 和 评价 体系 ， 实 现 更 高 效 的 适用 于 大 数据 的 排序 学 习 体系 。 


4.1 Top-k 标注 策略 


鉴于 在 信息 检索 中 用 户主 要 关注 前 几 个 结果 排序 , 而 传统 的 标注 数据 并 不 能 反映 这 样 的 
需求 ， 我 们 提出 了 Top-k 标注 策略 。 一 方面 ， 该 标注 策略 采用 相对 标注 方法 ， 不 同 于 传统 的 
绝对 标注 中， 让 用 户 的 标注 更 加 简易 和 可 靠 ; 另 一 方面 ， 该 标注 策略 产生 Top-k 全 序 的 数 
据 样 本 ， 既 符合 排序 的 特点 ， 又 能 够 更 好 地 用 局 部 高 质量 的 标注 样本 来 提供 全 局 学 习 ， 改 进 
大 数据 排序 学 习 的 性 能 。 


d) ”标注 算法 


为 了 实现 Top-k 标注 ， 我 们 采用 了 基于 小 顶 堆 的 Top-k 标注 算法 ， 描 述 如 下 : 1) 随机 
选择 k 个 元 素 ， 根据 用 户 相 对 标注 的 结果 构建 小 顶 堆 ， 堆 顶 元 素 为 t 2) 从 剩余 元 素 中 任 选 
一 个 元 素 r 与 堆 顶 元 素 t 比较， 根据 用 户 的 标注 结果 ， 更 新 小 项 扒 ， 直 至 所 有 元 素 都 被 比较 
过 ， 至 此 小 顶 堆 中 的 元 素 即 为 前 k 个 元 素 ; 3) 根据 用 户 的 标注 结果 采用 小 项 堆 排 序 对 前 k 
个 元 素 排序 。( 见 图 4) 


Input: (1) D (一 个 词 集合 ); (2) k， 排 列 项 数 
Begin 
随机 选取 集合 九 中 的 大 项 ， 记 作 Di， 在 其 上 构建 一 个 最 小 顶 堆 (min-heap) Hy, 3 
标注 相关 度 
For de(D-D,) do 
判断 文档 对 (dq，Dx[1]〉 中 何者 的 相关 度 更 高 
If d 相关 度 高 于 Di[1]，Then 
Dillj=4a 


按照 相关 度 更 新 Dt: 上 的 Hi 
End If 
End For 
将 玖 : 排 序 以 得 出 按 降序 排列 的 前 kX 项， 记 为 Lp 
将 (D-Dp 加 到 Lp 
End 
Output: Lp 


图 4 ， 基 于 堆 排 序 的 Top-k 标注 算法 


《2) ”标注 复杂 度 分 析 


所 谓 标注 复杂 度 即 : 对 于 任 一 个 文档 集合 大 小 为 n 的 查询 ， 为 了 得 到 一 个 高 质量 的 标 
注 结果 ， 需 要 用 户 做 出 判断 的 次 数 。 绝 对 标注 (包括 3 级 标注 ，5 级 标注 等 ) 的 复杂 度 为 
O(n)。 根 据 上 面 提 到 的 3 个 步骤 : 初始 化 大 个 元 素 的 小 顶 扒 的 标注 复杂 度 为 O(k)， 通 过 对 
剩余 za-K 个 元 素 与 该 小 顶 堆 的 扒 顶 元 素 的 比较 与 调整 获得 前 大 个 元 素 的 过 程 的 标注 复杂 度 为 
O((n-kjlogk), 获得 前 个 元 素 的 全 序 所 需 的 标注 复杂 度 为 O(klogh)。 因 此 基于 小 顶 堆 的 Top-k 
标注 策略 的 标注 复杂 度 为 O(nlogh)。 


G) ”数据 集 与 标注 流程 
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ir S24 


面向 网 络 大 数据 的 信 ， 


采用 TD2003 (Topic Distillation task of TREC2003) 中 的 所 有 查询 ， 共 50 个 ， 为 了 减 小 


至 少 一 个 是 相关 的 。 am 


标注 代价 及 实验 方便 ， 随 机 抽取 了 每 个 查询 下 的 50 个 文档 ， 保 证 3 
构造 了 一 个 可 视 化 的 标注 工具 , 由 $ 个 人 参与 了 标注 , 我 们 的 标注 方法 确保 每 个 查询 都 包 
来 自 于 两 个 不 同 的 标注 者 的 Top-k 标注 结果 和 5 级 标注 结果 。 
(4) ”实验 结 
表 4. 标注 时 间 复 杂 度 
每 次 判断 所 每 次 查询 所 每 次 查询 的 
方法 判断 复杂 度 
用 时 间 Cb) “用 时 间 (分 ) 判断 复杂 度 判断 数 
Top-k 标注 5.51 13.13 O(nlogk) 142.76 
五 级 标注 13.87 11.78 O(n) 50 
KS. top-k 和 五 级 标注 的 标注 质量 
(a) Top-k (b) 五 级 标注 
A>B AUB A<B A>B AUB A<B 
A>B 0.6749 0.2766 0.0485 A>B 0.6272 0.2913 0.0815 
AUB 0.1138 0.8198 0.0664 AOB 0.2825 0.5232 0.1944 
A<B 0.1047 0.3779 0.5194 A<B 0.1534 0.3826 0.4640 
由 表 4 可 知 ， 五 级 标注 与 Top-k 标注 的 时 间 复 杂 度 相当 。 由 表 $ 可知，Top-k 标注 的 一 
于 相对 标注 的 Top-k 标注 策 


高 于 五 级 标注 


主 ， 即 不 易 产 生 噪 音 。 sie eee nee 
示 注 的 质量 。 


致 性 要 
略 能 够 在 保证 时 间 复 杂 度 基本 不 变 的 条 件 下 ， 提 高 标 ; 


4.2 Top-k 排序 学 习 算 法 


个 同 的 算法 描 


H 


不 同 的 排序 算法 产生 。 


如 前 所 述 ，Top-k 序 可 以 | 
产生 过 程 ， 这 里 我 们 对 比 了 顺序 产生 和 层次 产 和 


两 种 不 同 的 产生 Top-k 序 的 方式 


E 两 种 不 同 的 方法 
过 程 的 认识 ， 我 们 分 别提 出 了 产生 式 与 区 分 式 排 序 学 习 模型 。 


对 Top-k 序 层次 产生 


述 了 Top-k 序 的 不 同 的 


(1) 
顺序 过 程 
ae pan ABCDEFGH 
ES) 调整 剩余 步 ， ij 
元 素 为 大 项 堆 出 k 个 元 素 SARC DERA 
G|F| OSD EI 
(a) 基于 大 项 堆 排序 - 顺序 产生 过 程 G|F |A |{B,C,D.E,H} 
EA sok ae 剩余 n-k 个 元 素 比较 完毕 ， 层次 过 程 
pia Ti Re 得 到 重大 的 (A. B,C, BE, F,G,H} 
or 顶 素 比 个 元 素 ， 
a a til hn 再 对 这 kK 个 {A,F,G}|{B,C,D.E,H} 
入 ， 小 则 抛弃 元 素 排序 GIFIAl 
(b) 基于 小 顶 堆 排序 - 层次 产生 过 程 
图 5， 两 种 不 同 的 产生 Top-k 序 的 方式 
传统 的 Top-k 排序 学 习 模 型 侧重 于 从 顺序 产生 过 程 来 描述 Top-k 序 ,如 Top-k ListMLEP9 
与 Top-k CPSP", 但 是 这 样 做 是 否 是 一 个 好 的 选择 还 是 一 个 问题 。 因 为 现 有 经 典 的 排序 学 习 
算法 告诉 我 们 Top-k 序 有 不 同 的 产生 过 程 , 小 顶 堆 排 序 就 是 这 样 的 一 个 例子 , 它 描 述 了 Top-k 
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序 的 顺序 产生 过 程 ， 如 图 5 所 示 。 
(2) ”层次 产生 过 程 的 理论 依据 


由 于 顺序 产生 过 程 计 算 效 率 高 , 在 排序 学 习 模 型 中 得 到 广泛 采用 , 但 是 这 种 方法 缺少 理 
论文 持 。 本 文 提出 的 基于 层次 产生 过 程 的 Top-k 排序 学 习 模 型 具有 良好 的 理论 依据 一 一 分 槽 
独立 性 (Riffled Independence) 1。 分 模 独 立 性 是 一 类 新 的 序 结构 上 的 独立 性 假设 ， 它 从 元 
素 的 集合 属性 描述 序 的 产生 概率 取决 于 同一 集合 内 部 元 素 之 间 的 序 以 及 集合 与 集合 之 间 的 
序 关 系 ， 如 下 式 所 示 。 


h(D=m4B( TaB(D)XfA( Nea) XEB( 72) 


HF, ma 描述 的 是 集合 间 的 序 关系 ，f 描述 的 集合 4 内 部 元 素 之 间 的 序 关系 ，gs 描 
BRE B 内 部 元 素 之 间 的 序 关系 ,分 槽 独立 性 为 本 文 提供 了 一 种 很 自然 的 Top-k 序 的 分 解 方 
式 。 


(3) ”概率 Top-k 排序 学 习 模 型 (HOM) 


Top-k 序 oa 中 的 元 素 可 以 看 作 来 自 7 和 严 两 个 集合 ， 其 中 7 了 集合 中 的 元 素 都 是 和 查询 相 
关 的 , 五 集 合 中 的 可 以 认为 是 与 查询 不 相关 的 。 因 此 Top-k 序 的 产生 概率 可 以 分 解 为 三 部 分 
的 乘积 。 然 而 由 于 我 们 仅仅 关注 于 前 个 位 置 的 序 ， 对 于 中 的 元 素 只 知道 是 位 于 这 个 
元 素 后 面 的 ， 而 其 中 元 素 之 间 的 序 未 知 ， 我们 也 不 关心 ， 因 此 可 理解 为 随机 序 。 基 于 层次 ) 
生 的 思路 ，Top-k 序 可 以 分 解 为 两 部 分 :(1) 第 一 层 为 前 个 元 素 与 后 面 元 素 之 间 的 序 关系 ; 

(2) 第 二 层 为 前 大 个 元 素 之 间 的 全 序 关 系 。 依 据 分 槽 独立 性 ，Top<k 序 o 的 产生 概率 可 用 
如 下 公式 描述 。 


P(o)=P (T< F)xP x(o.,) 


考虑 到 计算 效率 ， 对 于 第 二 层 的 前 个 位 置 的 全 序 关 系 o 的 产生 概率 采用 传统 的 顺序 
产生 模型 描述 ， 如 和 鲁 斯 Luce) 模型 中 等。 对 于 第 二 层 的 集合 间 的 序 关 系 的 产生 概率 ， 可 
以 有 多 种 描述 方法 , 我 们 列举 了 其 中 的 三 种 , 分 别 记 为 Group-to-Group (组 对 组 ), One-to-One 
(一 对 一 )， 以 及 One-to-Group〔 一 对 组 )。 组 对 组 方式 将 集合 T 与 都 分 别 视 为 一 个 整体 。 
一 对 一 方式 从 微观 入 手 ， 进 行 两 个 集合 中 的 元 素 之 间 的 比较 。 一 对 组 方式 ， 将 重要 的 一 方 了 
分 解 为 元 素 , 不 重要 的 一 方 五 整体 对 待 。 因 此 概率 Top-k 排序 学 习 模 型 HOM 有 三 种 实现 方 
式 :1) 组 对 组 +Luce 记 为 HOM-GG;2) 一 对 一 +Luce 记 为 HOM-00;3) 一 对 组 记 为 HOM-0G。 


(4) KIR Top-k 排序 学 习 模型 -聚焦 排序 (FocusedRank) 

从 似 然 函数 的 角度 来 看 ，HOM 的 似 然 损失 函数 可 以 看 作 是 两 部 分 损失 之 和 ， 一 部 分 是 
前 个 元 素 之 间 的 全 序 关 系 的 成 表 (istwise) 损失 ， 一 部 分 是 前 大 个 元 素 与 后 面 元 素 两 两 
之 间 的 配对 损失 函数 。 因 此 可 以 进一步 推广 为 了 上 成 表 损失 与 7 与 F 之 间 的 配对 损失 的 线 
性 组 合 。 这 里 将 7 与 之 间 构 建 的 所 有 “配对 ”的 集合 记 为 P。 因 此 ， 区 分 式 Top-k 排序 学 
习 模 型 的 损失 函数 如 下 式 所 示 

LE, q) PLs; Ti, pi)+(1-p) xLpairf ; Pi yi) 
其 中 Lis 和 Lair 22 SN SAN OH AE PRAY AM SORT HAR RR, B RETRIAL, yi KIENET A o 
这 样 排序 学 习 中 研究 得 较 多 的 配对 算法 与 列表 Clistwise) 算法 都 可 以 应 用 到 区 分 式 排 
序 中 ,但 是 考虑 到 物理 意义 ， 本 文 提出 了 以 下 三 种 组 合 方式 : (1) 基于 支持 向 量 机 的 聚焦 排 
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序 (FocusedSVM: SVM-MAP+RankSVM ); (2) 基于 神经 网 络 的 聚焦 排序 (FoceseNet: 
ListNet+RankNet); (3) 基于 集成 学 习 的 聚焦 排序 (FocusedBoost: AdaRank+RankBoost). 
这 样 区 分 式 排序 可 以 采用 不 同 的 优化 算法 求解 : 基于 文 持 向 量 机 的 聚焦 排序 采用 文 持 向 量 机 

(SVM) 中 常用 的 割 平 面 的 优化 算法 来 求解 ， 基 于 神经 网 络 的 聚焦 排序 采用 梯度 下 降 求解 ， 
基于 集成 学 习 的 聚焦 排序 则 可 采用 Boosting "的 过 程 求解 。 


4.3 Top-k 序 的 评价 指标 

针对 绝对 标注 的 评价 指标 NDCGPES 与 ERRP 得 到 广泛 的 应 用 。 本 文 针 对 Top-k 序 标注 
对 其 进行 扩展 ， 主 要 解决 方法 是 将 位 置信 息 映 射 为 相关 性 程度 。Top-k 序 o 定 义 在 D={x}7, 
上 ,假设 位 置 k 之 后 的 元 素 的 位 置 均 为 kH, 则 元 素 x; 相 关 程 度 可 以 简单 定义 为 yj=kt+1-o(xi)。 
因此 本 文 提出 了 针对 Top-k 标注 的 NDCG 与 ERR WX K-NDCG 与 K-ERR 


2 


1 gri 
K-NDCG@= — zz E z 
N,” log, (1 +i) 
n 1 i-l 2” =1 
KERR E RATAU -R(y;))= mex 
(1) HOM 模型 的 性 能 
ie Top-10 MQ2008 Top-10 2007 
HOM 模型 的 提出 是 为 了 尽 可 能 0.49 0.62 
好 地 对 具有 Top-k 序 标注 的 训练 数 0.47 0.60 
mone : À d 
据 的 特征 建 模 ， 因 此 实验 中 采用 了 0.45 | p 0:58 内 


PDD 


0.56 


Top-10 MQ2007 与 Top-10 MQ2008 043| | 
0.54 


两 个 数据 集 ， 分 别 是 MQ2007-list 与 


CD 


0.41 


ye 5 = 0.52 Kd 

MQ2008-list 的 子 集 ， 取 得 Top-10 标 oso BUN: K 
yar Se Rea, -k ARIE Be “~~ kKNDG@10 KERR i NDG@10 KERR 
注 来 模拟 具有 Top-k 标注 的 数据 集 。 Z3 HOM-GG = Top-k ListMLE fq] HOM-GG 5 Top-k ListMLE 
实验 结果 如 下 所 示 。 实 验 中 对 比 了 现 Œ] HOM-00 FE] Top-k CPS 加 HOM-00 E] Top-k CPS 

yy i pe Œ HOM-OG 国 HOM-OG 
有 的 主流 概率 Top-k 排序 学 习 算 法 

PE ab yt FH 

Top-k ListMLE 与 Top-k CPS。 实 验 图 6，HOM 性 能 对 比 
结果 如 图 6 所 示 ， 图 中 纵 坐 标 为 排序 中 考虑 位 置 因素 的 相关 性 指标 。 从 图 中 可 以 看 出 HOM 


模型 显著 好 于 两 个 基准 方法 。 
(2) FocusedRank 的 性 能 


采用 的 实验 数据 集 有 两 个 : (1)MQ2007-based; (2)TD2003-based。 对 于 这 两 个 数据 集合 
分 别 考 察 了 FocusedRank 在 三 级 标注 上 Graded MQ2007 (3 级 )，Graded TD2003 (5 级 ) 与 
Top-10 标注 上 Top-10 MQ2007，Top-10 TD2003。 其 中 Graded TD2003 与 Top-10 TD2003 是 
采用 前 面 提 到 的 标注 工具 实际 标注 得 到 的 结果 ; Graded MQ2007 是 采用 现 有 的 LETOR 中 的 
数据 ，Top-10 MQ2007 是 根据 MQ2007-list 进行 人 工 合成 后 得 到 的 结果 。 实 验 结果 如 下 表 6 
与 表 7 所 示 ， 可 以 很 明显 看 到 ， 本 文 提出 的 FocusedRank 算法 在 具有 Top-k 标注 的 数据 集 上 
取得 较 优 的 性 能 ， 在 多 级 标注 数据 集 上 与 传统 的 Listwise 算法 与 pairwise 算法 也 是 可 比 的 。 


7 一 个 将 弱 学 习 (weak learm) 算 法 融合 为 强 学 习 算法 (strong) 的 方法 ,基本 思想 是 将 多 个 能 力 较 弱 的 分 类 器 先 
加 得 到 一 个 更 强 的 分 类 器 
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